Retrieval Augmentation
End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering
マルチドキュメントOpenQAモデルをReaderとRetrieverを用いて、End-to-Endで学習するための新しい学習アルゴリズム
AtlasとかORQAのあれや
Masked Language Modelingなどを行う際、コーパスの中から該当箇所を抽出するRetrieverを同時に学習
抽出した参照文章と入力文を組み合わせてMLMを行う
解釈性もいいしパラメータ効率も良い
どうやって学習させるかが難しい
最近
PCL-Baidu WenxinはGPT-3スタイルのモデルとナレッジモデルを組みあわす
DeepMindのRETROはわずか70億個のパラメータを持つ言語mドエルでRetrieverと組み合わして、25倍のサイズの他のモデルと同等のパフォーマンス
OpenAIのWebGPTは参照コーパスを動的にインターネットから検索して抽出
効率的にベクトルの近傍探索ができることは検索やRetrievalにおいて必要不可欠
NeurlPS2021でコンペがあった
Billion-Scale Approximate Nearest neighbor Search Challenge
10億の参照データ
SPANN: Highly-efficient Billion-sclae Approximate Nearest neighborhood Search
大規模言語モデルにRetriever
https://tech.acesinc.co.jp/entry/2023/03/31/121001
ChatGPT APIで社内データについて回答するSlack BotとWebアプリを作った
https://blog.brainpad.co.jp/entry/2023/06/30/122838
LLM活用促進に向けたPlatform Engineeringからのアプローチ
https://www.lifull.blog/entry/2023/07/05/090000
【GPTIndex】パワポを読み込んだChatbotを作ろう!
https://zenn.dev/ryo1443/articles/fe921917d91ea0
外部データをRetrievalしてLLM活用する上での課題と対策案
https://tech-blog.abeja.asia/entry/retrieval-and-llm-20230703